AvgSessionLength (Duración promedio de la
sesión)
La duración de las sesiones de los usuarios tiene una media y mediana de
33.1 minutos, con una desviación estándar de 0.99, lo que indica que las
sesiones son relativamente homogéneas. El valor mínimo registrado es de
29.5 minutos y el máximo de 36.1 minutos, con un rango total de 6.61
minutos y un rango intercuartílico (IQR) de 1.37 minutos, lo que muestra
baja dispersión en los datos. La asimetría de -0.0321 sugiere que la
distribución es prácticamente simétrica, sin una inclinación
significativa hacia valores altos o bajos. La curtosis de 3.00 indica
que la forma de la distribución es muy similar a una normal, con una
dispersión de datos dentro de los rangos esperados.
Time on App (Tiempo en la aplicación)
El tiempo que los usuarios pasan en la aplicación tiene una media de
12.1 minutos y una mediana de 12.0 minutos, con una desviación estándar
de 0.99, lo que indica que la variabilidad en el tiempo de uso es baja.
El valor mínimo registrado es de 8.51 minutos y el máximo de 15.1
minutos, con un rango total de 6.62 minutos y un rango intercuartílico
(IQR) de 1.37 minutos, mostrando que la mayoría de los usuarios tienen
tiempos de uso muy similares. La asimetría de -0.0889 sugiere una ligera
inclinación hacia valores más bajos, aunque no de manera significativa.
La curtosis de 3.11 indica que la distribución es ligeramente más
concentrada en la media en comparación con una distribución normal, lo
que implica que los tiempos de uso están menos dispersos.
Time on Website (Tiempo en el sitio web)
El tiempo de navegación en el sitio web tiene una media y mediana de
37.1 minutos, con una desviación estándar de 1.01, lo que sugiere que
los usuarios pasan un tiempo relativamente estable en la plataforma. El
tiempo mínimo registrado es de 33.9 minutos y el máximo de 40.0 minutos,
con un rango total de 6.09 minutos y un rango intercuartílico (IQR) de
1.37 minutos, lo que indica que el 50% de los usuarios pasan entre 36.3
y 37.7 minutos en la web. La asimetría de 0.0121 muestra que la
distribución es prácticamente simétrica, sin sesgos hacia valores altos
o bajos. La curtosis de 2.89 indica que la distribución es ligeramente
más plana que una normal, sugiriendo una menor concentración de valores
en la media y una dispersión algo mayor.
Length of Membership (Duración de la
membresía)
El tiempo que los clientes han sido miembros de la plataforma tiene una
media de 3.53 años y una mediana de 3.53 años, con una desviación
estándar de 0.99, lo que indica que la mayoría de los clientes tienen
tiempos de membresía similares. El valor mínimo registrado es de 0.27
años y el máximo de 6.92 años, con un rango total de 6.65 años y un
rango intercuartílico (IQR) de 1.20 años, lo que significa que el 50% de
los clientes tienen entre 2.93 y 4.13 años de membresía. La asimetría de
-0.106 sugiere una leve inclinación hacia clientes con más años en la
plataforma, mientras que la curtosis de 3.33 indica una ligera mayor
concentración en la media, con pocos valores extremos.
Yearly Amount Spent (Cantidad anual gastada)
El gasto anual de los clientes presenta una media de 499.3 dólares y una
mediana de 499.0 dólares, con una desviación estándar de 79.3, lo que
indica una mayor variabilidad en comparación con las otras variables. El
gasto mínimo registrado es de 257.0 dólares y el máximo de 766.0
dólares, con un rango total de 508.8 dólares y un rango intercuartílico
(IQR) de 104.3 dólares, mostrando que el 50% de los clientes gastan
entre 445.0 y 549.0 dólares al año. La asimetría de 0.0347 indica que la
distribución es casi perfectamente simétrica, mientras que la curtosis
de 3.45 sugiere la presencia de algunos valores extremos, lo que podría
representar clientes con patrones de gasto significativamente más altos
que el promedio.
AvgSessionLength (Minutos promedio de la sesión de asesoría): El atributo tiene una distribución aparentemente simétrica con un ligero peak central, lo que indicaría que posiblemente tenga una distribución cercana a la norma. En cuanto a los valores están aproximadamente entre 30 y 36 minutos, lo que demuestra que existe poca variabilidad de los datos, la mayoría de los clientes tienen sesiones de entre 33 y 34 minutos de asesoría, lo que muestra que este proceso al parecer está estandarizado.
TimeOnApp (Minutos totales en la app): En este caso se ve una distribución simétrica, posiblemente con una distribución normal, con valores entre 8 y 15 minutos aproximadamente. Se observa que los usuarios de la app pasan en promedio entre 11 y 13 minutos en la aplicación. El rango de los datos en este caso es pequeño, lo que indica que el tiempo en la app es consistente entre los clientes, sin mayor variación.
TimeOnWebsite (Minutos totales en el sitio web): La distribución al igaul que los atributos anteriores es simétrica, posiblemente normal, con un ligero sesgo positivo (cola derecha más larga). Los minutos totales en el sitio web van entre los 34 y 40 minutos, destacando que la mayoría de los usuariospasan entre 36 y 38 minutos en la web. Se aprecia una mayor dispersión en comparación con el tiempo en la app, lo que podría indicar que algunos usuarios exploran más el sitio web que otros, podria deberse a que la app es complementaria y funciona más como consulta, mientras que la web está enfocada en un uso más intensivo con posiblemnete más opciones, pero es solo una suposición.
LengthOfMembership (Años de membresía en la tienda): Se puede apreciar una distribución simétrica con una ligera concentración central, en la que el rango de años de membresía en la tienda es de 0 a 6 años con una mayoría clara de clientes con una antiguedad de 3 a 4 años como miembros. Esto podria sugerir una alta retensión después de los primeros años de membresía.
YearlyAmountSpent (Monto anual de compras en dólares): En cuanto a la distribución es simétrica, posiblemente normal, con un rango de valores entre 300 y 800 dólares. La mayoría de los clientes gastan entre 400 y 600 dólares al año en compras, no se ve una diferenciación entre la app y la web pero habría sido interesante analizarlo. Se aprecia una variabilidad moderada, lo que sugiere diferencias en los hábitos de consumo entre clientes.
AvgSessionLength vs Yearly Amount Spent (Gráfico Azul): Existe una leve correlación positiva, aunque no muy fuerte, entre la longitud promedio de la sesión y el monto anual de compras. Se parecia dispersión en los datos, lo que sugiere que otros factores además de la duración promedio de la sesión pueden estar influyendo en los gastos anuales. Es grafico sugiere que los clientes que pasan más tiempo promedio en sesiones no necesariamente gastan significativamente más al año.
TimeOnApp vs Yearly Amount Spent (Gráfico Rojo): Existe una correlación moderadamente fuerte y positiva entre el tiempo total en la app y el monto anual de compras. Se aprecia un patrón ascendente más claro en comparación con las otras variables, esto sugiere que a medida que los clientes pasan más tiempo en la app, tienden a gastar más al año, el tiempo en la app parece ser un factor importante que afecta el gasto anual, esto podría ser una oportunidad para optimizar la experiencia en la app y fomentar más interacción para incrementar las compras.
TimeOnWebsite vs Yearly Amount Spent (Gráfico Verde): No se observa una correlación clara entre el tiempo total en el sitio web y el monto anual de compras. Los puntos están dispersos y no muestran un patrón evidente, po lo que sugiere que el tiempo en el sitio web no influye significativamente en el gasto anual de los clientes. Una posible mejora de la efectividad del sitio web (como su diseño o facilidad para realizar compras) podría ser una oportunidad, ya que el tiempo en el sitio web no parece ser un factor determinante para las compras.
LengthOfMembership vs Yearly Amount Spent (Gráfico Morado): Existe una relación positiva clara entre los años de membresía y el monto anual de compras, los clientes con más años de membresía tienden a gastar más, como lo muestra la tendencia ascendente de los datos, la relación es fuerte y consistente, lo que indica lealtad de los clientes a largo plazo, por lo tanto, los clientes más antiguos son los que más gastan. Esto resalta la importancia de estrategias de retención, como recompensas para miembros antiguos o incentivos para que los nuevos clientes permanezcan más tiempo.
Grafico de frecuencia
El eje x representa los 4 grupos creados a partir de la variable
AvgSessionLength, los rangos son:
El eje y muestra la cantidad de observaciones en cada grupo.
Observaciones
El rango [33-34) tiene la mayor cantidad de observaciones (179), seguido
por el rango [32-33) (167), el rango [34-36.2] tiene menos observaciones
(85), mientras que el ultimo [29-32) tiene la menor cantidad (69).
Se observa que el gasto promedio anual aumenta a medida que se incrementa el rango del grupo, el primer rango tiene la media más baja: 452.74 dólares y el ultimo rango tiene la media más alta de 545.39 dólares. Esto sugiere que los clientes con sesiones promedio más largas tienden a gastar más anualmente. El comportamiento de la mediana es consistente con la media, la cercanía entre ellas en cada grupo indica distribuciones simétricas dentro de cada categoría.
En cuanto a la dispersión de los datos es relativamente similar entre los grupos, con valores entre 71.10 y 82.07 dólares, lo que sugiere que la variabilidad del gasto dentro de cada grupo es moderada.
El segundo y tercer rango concentran la mayoría de los clientes, lo que implica que la duración promedio de las sesiones de la mayoría de los clientes está entre 32 y 34 minutos. Mientras que los rangos extremos tienen menos clientes, lo que podría ser una oportunidad para analizar si hay factores que impactan la duración promedio de las sesiones.
Las sesiones más largas podrían indicar clientes más comprometidos o interesados en los servicios, lo que se traduce en mayores compras, también podrían reflejar interacciones más significativas, fomentando mayores gastos.
En base a todo lo anterior se podrían diseñar estrategias para aumentar la duración promedio de las sesiones, como promociones, incentivos o mejores herramientas de asesoramiento, Identificar qué factores influyen en las sesiones más largas (por ejemplo, características del cliente, tipo de producto o servicio). Tambien se puede considerar generar estrategias por grupos (cada rango)
El gráfico de boxplot nos muestra la distribución de los datos en cuartiles. En el eje X tenemos los rangos de tiempo promedio que los clientes pasaron en la tienda en línea y en el eje Y, el monto que gastaron anualmente en la tienda.
En el gráfico se observa una tendencia que indica que los clientes que permanecen mayor tiempo promedio en la tienda en línea durante sus sesiones tienden a gastar más anualmente que aquellos que permanecen menor tiempo en promedio. Siendo quienes permanecen entre 34 y 36.2 minutos, el grupo con mayor gasto anual y quienes permanecen entre 29 y 23 minutos en la sesión, el grupo con el menor gasto.
A medida que aumenta el tiempo promedio que los usuarios permanecen en línea, es decir, grupos [33-34] y [34 -36.2], la dispersión del gasto anual también lo hace. Lo que podría indicar que entre los clientes que pasaron más tiempo en línea hay tanto grandes compradores como algunos con gasto moderado, mientras que en los grupos de usuarios que permanecen menos tiempo en la sesión, el gasto está más concentrado.
Se observan también valores atípicos en todos los grupos, es decir clientes con un gasto significativamente distinto al grupo al que pertenecen. Se destaca el grupo de 34 a 36.2 minutos, en donde hay clientes que gastaron notablemente más que el promedio.
El tiempo promedio que pasan los usuarios durante la sesión parece correlacionarse positivamente con el gasto anual de los clientes, lo que sugiere que estrategias para aumentar el tiempo que los clientes pasan en la tienda, podría aumentar también los ingresos recibidos. Por otro lado, también seria conveniente analizar a los clientes que pasan menos tiempo en la tienda en línea y que gastan menos, implementando estrategias que mejoren su experiencia y los incentiven a comprar más.
La matriz de correlaciones indica la relación entre las diferentes variables. Si analizamos la variable “YearAmountSpent” respecto a las demás variables, tenemos que LengthofMembership (duración de la membresia), destaca por tener una fuerte correlación con el gasto anual (0.809). Lo que indicaría que clientes que han sido miembros por mas tiempo, tienden a gastar más anualmente.
En el caso de la variable “TimeonApp”, tenemos una correlación moderada en entre el tiempo promedio en la aplicación y el gasto anual, con un valor de 0.499. Esto sugiere que los clientes que utilizan más la aplicación tienden a gastar más. Para la variable “AvgSessionLenght”, se observa una correlación baja o moderada entre la duración promedio de las sesiones y el gasto anual (0.355). Lo que estaría indicando que a un mayor tiempo en las sesiones, podría estar relacionado con mayor cantidad anual gastada.
Por otro lado, en el caso de las variables que presentan la corrleación más baja (casi nula) y negativa, tenemos a “TimeonWebsite”, con solo -0.003.
Call:
lm(formula = YearlyAmountSpent ~ AvgSessionLength + TimeonApp +
TimeonWebsite + LengthofMembership, data = ecommerce)
Residuals:
Min 1Q Median 3Q Max
-30.4059 -6.2191 -0.1364 6.6048 30.3085
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1051.5943 22.9925 -45.736 <2e-16 ***
AvgSessionLength 25.7343 0.4510 57.057 <2e-16 ***
TimeonApp 38.7092 0.4510 85.828 <2e-16 ***
TimeonWebsite 0.4367 0.4441 0.983 0.326
LengthofMembership 61.5773 0.4483 137.346 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.973 on 495 degrees of freedom
Multiple R-squared: 0.9843, Adjusted R-squared: 0.9842
F-statistic: 7766 on 4 and 495 DF, p-value: < 2.2e-16
AvgSessionLength TimeonApp TimeonWebsite LengthofMembership
1.005422 1.008684 1.010275 1.006949
Asymptotic one-sample Kolmogorov-Smirnov test
data: residuos
D = 0.025562, p-value = 0.8995
alternative hypothesis: two-sided
studentized Breusch-Pagan test
data: modelo
BP = 5.9772, df = 4, p-value = 0.2009
[,1] [,2] [,3] [,4] [,5]
[1,] 500.000 16526.60 6026.244 18530.22 1766.731
[2,] 16526.597 546748.41 199172.906 612465.53 58425.913
[3,] 6026.244 199172.91 73124.477 223376.59 21307.949
[4,] 18530.223 612465.53 223376.588 687247.83 65451.855
[5,] 1766.731 58425.91 21307.949 65451.85 6740.954
[,1] [,2] [,3] [,4] [,5]
[1,] 5.314967384 -7.006605e-02 -2.003024e-02 -7.379595e-02 -5.868361e-03
[2,] -0.070066052 2.045179e-03 5.532897e-05 6.010180e-05 -1.211012e-04
[3,] -0.020030239 5.532897e-05 2.045001e-03 -1.671937e-04 -7.065036e-05
[4,] -0.073795949 6.010180e-05 -1.671937e-04 1.982787e-03 9.665424e-05
[5,] -0.005868361 -1.211012e-04 -7.065036e-05 9.665424e-05 2.020853e-03
[,1]
[1,] 249657.0
[2,] 8265911.0
[3,] 3028636.3
[4,] 9252294.7
[5,] 914152.3
Coefficients
Intercept -1051.5942553
Avg.Session.Length 25.7342711
Time.on.App 38.7091538
Time.on.Website 0.4367388
Length.of.Membership 61.5773238
Evaluación de los supuestos del modelo
1. Multicolinealidad (VIF): Todos los valores de VIF son cercanos a 1, lo que indica ausencia de multicolinealidad. Esto significa que las variables predictoras son independientes entre sí.
2. Normalidad de los residuos: Prueba de Kolmogorov-Smirnov con p-value de 0.8995 (mayor a 0.005) indica que los residuos siguen una distribución normal
3. Homocedasticidad: Prueba de Breusch-Pagan con un p-value de 0.2009 (mayor a 0.05), esto quiere decir que los errores tienen variana constante, cumpliendo el supuesto de homocedasticidad
4. Linealidad y ajuste del modelo: Los gráficos de residuos vs. valores ajustados no muestran patrones evidentes, lo que indica que la relación entre las variables es lineal.
Interpretación de las variables predictoras
AvgSessionLength contribuye positivamente al gasto anual, pero su impacto es menor en comparación con otras variables como TimeonApp y LengthofMembership. TimeonApp tiene el mayor impacto por minuto adicional, sugiriendo que los clientes más comprometidos con la app tienden a gastar más y LengthofMembership tiene una fuerte influencia positiva. Los clientes más antiguos gastan significativamente más, en cambio TimeonWebsite posee una relación muy débil con los gastos anuales con un 0.44, esto sugiere que el tiempo en el sitio web no influye significativamente en el gasto, por lo que si se deseara se podría prescindir de esta variable para un ajuste del modelo.
Conclusiones generales
El modelo tiene un muy buen ajuste con un R2=98.43%, lesto quiere decir que el modelo explica la mayor parte de la variabilidad en el gasto anual de los clientes. Es importante considerar que las variables más importantes son TimeonApp y LengthofMembership, mientras que la variable TimeonWebsite tiene una relación casi insignificante con los gastos anuales, lo que sugiere que su impacto es mínimo. Además se cumplen todos los supuestos de regresión lineal (ausencia de multicolinealidad, normalidad, homocedasticidad y linealidad).
Para una mejor interpretación de los datos sería interesante poder validar información adicional, sin embargo, se debe considerar que el tiempo en la app tiene el mayor impacto en el gasto anual, es crucial invertir en mejoras para aumentar la interacción de los clientes y por alguna razón es inferior al tiempo invertido en la web, puede ser por un tema de usabilidad ya que la app puede ser más intuitiva, funcionalidades afines a los objetivos de los usuarios, disponibilidad fácil y segura dentro de una app, recordando su potencial uso, u otra. Es relevante considerar que la duración de la membresía está altamente correlacionada con el gasto anual, diseñar programas de fidelización y beneficios para miembros antiguos podría aumentar los ingresos y segmentar a los clientes según la duración de sus sesiones y membresía para diseñar estrategias de marketing específicas. Por ultimo, el análisis matemático de los coeficientes (usando matrices) coincide con los valores obtenidos en el modelo ajustado con lm(), lo que valida los resultados computacionales, confirmando que el modelo está correctamente especificado.
Evaluación de los supuestos del modelo
1. Multicolinealidad (VIF): Todos los valores de VIF son cercanos a 1, lo que indica ausencia de multicolinealidad. Esto significa que las variables predictoras son independientes entre sí.
2. Normalidad de los residuos: Prueba de Kolmogorov-Smirnov con p-value de 0.8995 (mayor a 0.005) indica que los residuos siguen una distribución normal
3. Homocedasticidad: Prueba de Breusch-Pagan con un p-value de 0.2009 (mayor a 0.05), esto quiere decir que los errores tienen variana constante, cumpliendo el supuesto de homocedasticidad
4. Linealidad y ajuste del modelo: Los gráficos de residuos vs. valores ajustados no muestran patrones evidentes, lo que indica que la relación entre las variables es lineal.
Interpretación de las variables predictoras
AvgSessionLength contribuye positivamente al gasto anual, pero su impacto es menor en comparación con otras variables como TimeonApp y LengthofMembership. TimeonApp tiene el mayor impacto por minuto adicional, sugiriendo que los clientes más comprometidos con la app tienden a gastar más y LengthofMembership tiene una fuerte influencia positiva. Los clientes más antiguos gastan significativamente más, en cambio TimeonWebsite posee una relación muy débil con los gastos anuales con un 0.44, esto sugiere que el tiempo en el sitio web no influye significativamente en el gasto, por lo que si se deseara se podría prescindir de esta variable para un ajuste del modelo.
Conclusiones generales
El modelo tiene un muy buen ajuste con un R2=98.43%, lesto quiere decir que el modelo explica la mayor parte de la variabilidad en el gasto anual de los clientes. Es importante considerar que las variables más importantes son TimeonApp y LengthofMembership, mientras que la variable TimeonWebsite tiene una relación casi insignificante con los gastos anuales, lo que sugiere que su impacto es mínimo. Además se cumplen todos los supuestos de regresión lineal (ausencia de multicolinealidad, normalidad, homocedasticidad y linealidad).
Para una mejor interpretación de los datos sería interesante poder validar información adicional, sin embargo, se debe considerar que el tiempo en la app tiene el mayor impacto en el gasto anual, es crucial invertir en mejoras para aumentar la interacción de los clientes y por alguna razón es inferior al tiempo invertido en la web, puede ser por un tema de usabilidad ya que la app puede ser más intuitiva, funcionalidades afines a los objetivos de los usuarios, disponibilidad fácil y segura dentro de una app, recordando su potencial uso, u otra. Es relevante considerar que la duración de la membresía está altamente correlacionada con el gasto anual, diseñar programas de fidelización y beneficios para miembros antiguos podría aumentar los ingresos y segmentar a los clientes según la duración de sus sesiones y membresía para diseñar estrategias de marketing específicas. Por ultimo, el análisis matemático de los coeficientes (usando matrices) coincide con los valores obtenidos en el modelo ajustado con lm(), lo que valida los resultados computacionales, confirmando que el modelo está correctamente especificado.